using IronWord; using System.Linq; using System; // Load docx WordDocument doc = new WordDocument("multi-paragraph.docx"); // Returns text from the entire file Console.WriteLine(doc.ExtractText()); // Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs[0].ExtractText()); // Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Imports IronWord Imports System.Linq Imports System ' Load docx Private doc As New WordDocument("multi-paragraph.docx") ' Returns text from the entire file Console.WriteLine(doc.ExtractText()) ' Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs(0).ExtractText()) ' Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText())

Wyodrębnij tekst

Podczas wyodrębniania dużej ilości tekstu z dokumentów proces może być nieefektywny i czasochłonny, zwłaszcza przy pracy z tabelami i dużymi ilościami akapitów. Jednak metoda ExtractText od IronWord to rozwiązanie oszczędzające czas. Umożliwia programistom łatwe wyodrębnienie całej określonej ilości tekstu w dokumencie, eliminując potrzebę dodatkowych pętli i upraszczając dostęp do właściwości Text. Ta metoda gwarantuje, że programiści mogą pracować wydajnie i oszczędzać cenny czas.

W tym przykładzie przedstawimy kilka sposobów użycia metody ExtractText i zwiększenia wydajności przy pobieraniu tekstu z dokumentów.

Przydatne sposoby na wyciąganie tekstu z pliku Docx

using IronWord;
WordDocument doc = new WordDocument("multi-paragraph.docx");
Console.WriteLine(doc.ExtractText());
Console.WriteLine(doc.Paragraphs[0].ExtractText());
Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Wyodrębnij tekst

Dzięki bibliotece IronWord wyodrębnianie tekstu z dokumentu Worda jest prostym procesem. Zaczynamy od importowania biblioteki i inicjalizacji klasy WordDocument. Ten krok pozwala nam wczytać istniejący dokument z akapitami. Następnie wywołujemy metodę ExtractText i wypisujemy cały tekst dokumentu do konsoli.

Wyodrębnij określony tekst

W powyższym przykładzie wyodrębniono cały tekst dokumentu, ale dzięki bibliotece IronWord masz pełną kontrolę nad procesem wyodrębniania. Jeśli chcesz tylko określone fragmenty lub akapity, możesz użyć właściwości Paragraphs w WordDocument, aby zwrócić tablicę Paragraphs. Jako ogólna lista, tę tablicę można manipulować według potrzeb, albo wywołując indeks, jak pokazano powyżej z doc.Paragraphs[0], albo używając wbudowanych metod tablicowych dla kolekcji C#.

Przy dostępie do indeksu Paragraphs, zwracamy i wyodrębniamy tekst tylko z pierwszego akapitu dokumentu i wypisujemy go do konsoli. Następnie, wywołujemy także Last na tablicy Paragraphs, aby zwrócić i wyodrębnić tekst tylko z ostatniego akapitu dokumentu.

Poznaj API IronWord do zaawansowanego wyodrębniania tekstu